Análisis de Componentes Principales
Dos modos
Tablas Múltiples
Métodos multi-way
Método para reducir la dimensionalidad de los datos conservando la mayor cantidad de información. El método se debe usar cuando las variables son cuantitativas y existe presencia de correlación
Visualizar patrones: Sirve para visualizar la estructura de los datos y detectar patrones emergentes.
Construir de índices sintéticos: Las variables originales se resumen en un conjunto menor de componentes principales que contienen información de todas las variables originales.
Identificar factores latentes: Identifica los factores principales que explican los cambios relacionados con el tema de interés.
Identificar grupos: Ayuda a identificar grupos de individuos que comparten características similares.
Sea \(\mathbf{X}\) la matriz de datos, con \(\mathbf{x}_i \in \mathbb{R}^p,\ i \in \{1, \dots, n\}\), que representa los valores de \(p\) variables cuantitativas para \(n\) individuos, se busca investigar si es posible representar los individuos mediante \(r\) variables (\(r<p\)), con poca, o ninguna pérdida de información, si es posible.
Pearson planteó un problema geométrico: encontrar una representación óptima de datos multivariados en una dimensión reducida con respecto al error cuadrático medio.
Si \(\mathbf{x}_i \in \mathbb{R}^p, i \in \{1, \dots, n\}\), están centrados, el objetivo de PCA es
\[ \min_{U \in \mathbb{R}^{p \times r}} \sum_{i=1}^n \left\| \mathbf{x}_i - UU^\top \mathbf{x}_i \right\|^2 \quad \text{sujeto a} \quad U^\top U = I_r, \]
donde \(r < p\).
Pearson planteó un problema geométrico: encontrar una representación óptima de datos multivariados en una dimensión reducida con respecto al error cuadrático medio.
Si \(\mathbf{x}_i \in \mathbb{R}^p, i \in \{1, \dots, n\}\), están centrados, el objetivo de PCA es
\[ \min_{U} \| X - X U U^\top \|_F^2 \quad \text{sujeto a} \quad U^\top U = I_r \]
donde \(r < p\).
Hotelling (1933) demostró que las direcciones que maximizan la varianza proyectada son los autovectores de la matriz de covarianzas muestral.
El objetivo es maximizar:
\[ \max_{U \in \mathbb{R}^{p \times r}} \operatorname{tr}\!\left(U^\top \mathbf{X}^\top \mathbf{X} U\right) \quad \text{sujeto a} \quad U^\top U = I_r, \]
donde \(r < p\).
Enfoque de Hotelling (1933) vs Pearson (1901)
Maximizar la varianza en el espacio de los componentes principales es equivalente a minimizar el error de reconstrucción por mínimos cuadrados.
Sea \(\mathbf{x}_i \in \mathbb{R}^p\), \(i=1,\dots,n\), un conjunto de observaciones centradas.
El objetivo del Análisis de Componentes Principales (PCA) es encontrar un subespacio de dimensión \(r < p\) que minimice el error de reconstrucción:
\[ \min_{U \in \mathbb{R}^{p \times r}} \sum_{i=1}^n \left\| \mathbf{x}_i - UU^\top \mathbf{x}_i \right\|^2 \quad \text{sujeto a} \quad U^\top U = I_r \]
donde las columnas de \(U\) son ortonormales.
El subespacio de dimensión \(r\) que mejor aproxima los datos.
Equivalente a minimizar la pérdida de información.
Sea \(X \in \mathbb{R}^{n \times p}\) la matriz de datos centrados. El problema es equivalente a:
\[ \min_{U} \| X - X U U^\top \|_F^2 \quad \text{sujeto a} \quad U^\top U = I_r \]
donde \(\|\cdot\|_F\) es la norma de Frobenius, es decir, \(\|A\|^2_F=\operatorname{tr}\!\left(A^\top A\right)\). Entonces:
\[ \min_{U} \| X - X U U^\top \|_F^2 = \operatorname{tr}\!\left(X^\top X\right) - \operatorname{tr}\!\left(U^\top X^\top XU\right) \]
El primer término no depende de \(U\).
\[ \max_{U} \operatorname{tr}\!\left(U^\top X^\top XU\right) \quad \text{sujeto a} \quad U^\top U = I_r \]
Si definimos la matriz de covarianza:
\[ S = \frac{1}{n} X^\top X \]
obtenemos:
\[ \max_{U} \operatorname{tr}(U^\top S U) \quad \text{sujeto a} \quad U^\top U = I_r \]
Sea \(S = \frac{1}{n}X^\top X\) la matriz de covarianzas. El problema de PCA puede escribirse como:
\[ \max_{U} \operatorname{tr}(U^\top S U) \quad \text{sujeto a} \quad U^\top U = I_r. \]
Construimos el Lagrangiano:
\[\mathcal{L} = \operatorname{tr}(U^\top S U) - \operatorname{tr}\!\left[\Lambda(U^\top U - I_r)\right]\]
donde \(\Lambda\) es simétrica.
Derivando respecto a \(U\):
\[2SU - 2U\Lambda = 0\]
Por lo tanto:
\[SU = U\Lambda.\]
Esto implica que:
\[ S u_k = \lambda_k u_k, \quad k=1,\dots,r. \]
Las columnas de \(U\) son los autovectores de \(S\) asociados a los mayores autovalores.
Para una dirección unitaria \(u\):
\[ \mathrm{Var}(Xu) = u^\top S u. \]
PCA busca:
\[ \max_{\|u\|=1} u^\top S u. \]
Por lo tanto:
Las componentes principales se obtienen como:
\[ Z = XU \]
Reconstrucción de los datos:
\[ \hat X = ZU^\top \]
Interpretación:
Reproducir la matriz original usando menos dimensiones
El primer artículo sobre descomposición en valores singulares (SVD) fue publicado en Psychometrika (Eckart y Young, 1936).
El conjunto de datos RESUMEN.sav contiene un preprocesamiento obtenido de la GEIH del DANE a nivel departamental para algunas variables de interés.
Use el comando glimpse() y skim() para explorar el conjunto de datos.
EL ACP es una técnica que se aplica sobre variables cuantitativas.
Teniendo en cuenta que:
\[\mathbf{Z} = \mathbf{XU}\]
Entonces una CP es una variable latente que resume la información contenida en las variables originales. Por ejemplo, la primera CP es:
\[z_{1i} = u_{11} \cdot x_{1i} + \cdots +u_{1p} \cdot x_{pi}\]
La matriz \(\mathbf{U}\) actúa como los ponderadores de las variables de la matriz \(\mathbf{X}\), con lo cual \(\mathbf{Z}\) es un índice que resume la información contenida en las variables originales. Como cada CP está incorrelacionada con las demás, entonces la información que explica cada una es diferente.
Diapositivas disponibles en GitHub.